خوشه بندی داده های بیان ژنی توسط عدم تشابه جنگل تصادفی

نویسندگان

زهره فرهادی

کارشناس ارشد آمار، دانشگاه شاهرود، شاهرود، ایران داود شاهسونی

عضو هیات علمی گروه آمار، دانشگاه شاهرود، شاهرود، ایران

چکیده

زمینه و هدف: خوشه بندی داده های بیان ژنی در تشخیص و درمان سرطان، دارای اهمیت بسزایی است. مشخصه ی بارز این داده ها تعداد زیاد متغیرها (ژن ها) نسبت به تعداد داده ها (بیماران) است. بسیاری از روش های خوشه بندی بر پایه ی عدم تشابه داده ها که حاصل محاسبه ی یک تابع فاصله است‏، بنا شده اند و افزایش ‏بعد‏، کارآیی توابع فاصله را کاهش می دهد‏. در این تحقیق معیاری جدید برای محاسبه ی عدم تشابه در ابعاد بالا‏، بر اساس یک روش رده بندی به نام جنگل تصادفی معرفی شده و کارایی آن در تحلیل داده های بیان ژنی، مورد ارزیابی قرار گرفته است. روش کار: در این مقاله خوشه بندی مجموعه داده ی چاودری و همکاران  توسط عدم تشابه جنگل تصادفی مد نظر قرار گرفته است. بدین منظور ابتدا مسئله ی خوشه بندی به مسئله ی رده بندی تبدیل شده و با انجام رده بندی جنگل تصادفی، عدم تشابه مربوطه محاسبه شده است. سر انجام داده ها توسط روش خوشه بندی افراز حول مدوید، خوشه بندی شده و نتیجه ی خوشه­بندی توسط شاخص رند تعدیل یافته مورد ارزیابی قرار گرفته است. تمامی تحلیل ها با نرم افزار r انجام شده است. یافته ها: مقدار شاخص رند تعدیل یافته (۰/۸۱۴۹)، نشان دهنده ی انطباق مطلوب خوشه های تخمینی با گروه های واقعی است. همچنین با استفاده از قابلیت تعیین اهمیت متغیرها در روش جنگل تصادفی، ژن شماره ی ۳۱ موثرترین ژن در این خوشه بندی شناخته شد و توانستیم خوشه های تخمینی را تنها بوسیله ی این ژن توصیف کنیم. نتیجه گیری: عدم تشابه جنگل تصادفی، معیاری  کارا برای سنجش عدم تشابه داده ها در خوشه بندی داده های بیان ژنی است. همچنین می توان با استفاده از قابلیت متحصر به فرد این روش، ژن های موثر در خوشه بندی را شناسایی نموده و خوشه های تخمینی را به وسیله ی آن ها توصیف نمود.

برای دانلود باید عضویت طلایی داشته باشید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

خوشه‌بندی داده‌های بیان‌ژنی توسط عدم تشابه جنگل تصادفی

Background: The clustering of gene expression data plays an important role in the diagnosis and treatment of cancer. These kinds of data are typically involve in a large number of variables (genes), in comparison with number of samples (patients). Many clustering methods have been built based on the dissimilarity among observations that are calculated by a distance function. As increa...

متن کامل

الگوریتم های خوشه بندی دوبعدی در داده های بیان ژنی: یک مطالعه مروری

در سال های اخیر تکنولوژی ریز آرایه امکان مشاهده و بررسی بیان هم زمان هزاران ژن را وقتی سلول تحت شرایط مختلف یا پروسه های متفاوت قرار می گیرد را فراهم کرده است و نقشی اساسی در سرعت بخشیدن و بالا رفتن کارایی مطالعات بیان ژنی ایفا می کند. یکی از مهم ترین تکنیک های تشخیص الگو در داده های بیان ژنی تحلیل خوشه بندی دوبعدی است که می تواند گروه هایی از ژن ها با الگو های بیان شده مشابه را بیابد. مطالعه ح...

متن کامل

خوشه بندی داده های بیان ژنی و کاربرد آن در تحلیل افتراق انواع سرطان خون

سابقه و هدف: یکی از شاخه های مهم بیوانفورماتیک فناوری ریزآرایه dna است که امکان بررسی بیان هزاران ژن را به طور هم زمان در حداقل زمان ممکن می سازد که در سال های اخیر موجب تولید حجم انبوهی از داده های بیان ژنی شده است. تحلیل آماری این داده ها شامل نرمال سازی، خوشه بندی، طبقه بندی و ... از جمله روش های مورد استفاده در تحلیل این نوع داده ها است. مواد و روش ها: در این مقاله داده های بیان ژنی سرطان خ...

متن کامل

نحوه خوشه بندی آماری داده های شکل

اخیرا به کارگیری ابزارهای آمار چندمتغیره برای تحلیل داده هایی که به صورت هندسی تصادفی هستند مورد اقبال محققین علوم کاربردی قرار گرفته است. آمارشکل به عنوان شاخه جدیدی از هندسه تصادفی شامل مجموعه ای از چنین داده هایی است. با این حال، چون چنین داده هایی ماهیت غیراقلیدسی دارند نحوه تطبیق ابزارهای مرسوم چندمتغیره برای تحلیل آماری مناسب آنها تا حدودی واضح نیست. در این مقاله نحوه خوشه بندی داده های آ...

متن کامل

شبکه های بیان ژنی برای آنالیز داده ماکرواری DNA

بر خلاف دیدگاه تقلیل گرایانه بیولوژی کلاسیک ، رویکرد کل نگر در بیولوژی با انفجار در پیشرفت تکنیک هایی با تکنولوژی بالا و تولید حجم عظیم داده خود را نشان داده است . اکنون چالش بیولوژیست ها کشف روش های تحلیل این داده ها است تا بتوانند در رسیدن به درک سیستم پویای پیچیده حیات کمک کنند. در بین تکنولوژی های بسیار پیشرفته اخیر که بیشترعمومی هستند میکرواری DNA از مشهورترین آن ها است . میکرواری،سطوح بیا...

متن کامل

خوشه بندی داده های بیان ژنی با استفاده از قوانین فازی

پیچیدگی شبکه های زیستی و تعداد زیاد ژ ن ها در مجموعه داده های ریز آرایه منجر به چالش های فراوان در زمینه تحلیل داده های بیان ژنی شده است. الگوریتم های خوشه بندی که ژن های مشابه یکدیگر را به هدف تحلیل عملکرد ژن ها گروه بندی می نماید اولین قدم برای رویارویی با این چالش ها می باشد. بطور کلی روش های خوشه بندی فازی برای تحلیل داده های بیان ژنی مناسب تر می باشند زیرا گروه های زیستی به طور ذاتی دارای ...

15 صفحه اول

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید


عنوان ژورنال:
مجله علوم پزشکی رازی

جلد ۲۲، شماره ۱۳۶، صفحات ۱۰۹-۱۱۸

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023